1.

Загрузите датасет life_expectancy_data.RDS (лежит в папке домашнего задания). Это данные с основными показателями, через которые высчитывается ожидаемая продолжительности жизни по метрике World Development Indicator на уровне стран2. В данных оставлены строки, относящиеся к положению женщин в 2019 г.

## Classes 'data.table' and 'data.frame':   195 obs. of  23 variables:
##  $ Country                                : chr  "Afghanistan" "Albania" "Algeria" "Angola" ...
##  $ Year                                   : int  2019 2019 2019 2019 2019 2019 2019 2019 2019 2019 ...
##  $ Gender                                 : chr  "Female" "Female" "Female" "Female" ...
##  $ Life expectancy                        : num  66.4 80.2 78.1 64 78.1 ...
##  $ Unemployment                           : num  14.06 11.32 18.63 7.84 8.26 ...
##  $ Infant Mortality                       : num  42.9 7.7 18.6 44.5 5.1 ...
##  $ GDP                                    : num  1.88e+10 1.54e+10 1.72e+11 8.94e+10 1.69e+09 ...
##  $ GNI                                    : num  1.91e+10 1.52e+10 1.68e+11 8.19e+10 1.58e+09 ...
##  $ Clean fuels and cooking technologies   : num  36 80.7 99.3 49.6 100 ...
##  $ Per Capita                             : num  494 5396 3990 2810 17377 ...
##  $ Mortality caused by road traffic injury: num  15.9 11.7 20.9 26.1 0 ...
##  $ Tuberculosis Incidence                 : num  189 16 61 351 0 29 26 2.2 6.9 6 ...
##  $ DPT Immunization                       : num  66 99 91 57 95 ...
##  $ HepB3 Immunization                     : num  66 99 91 53 99 ...
##  $ Measles Immunization                   : num  64 95 80 51 93 ...
##  $ Hospital beds                          : num  0.432 3.052 1.8 0.8 2.581 ...
##  $ Basic sanitation services              : num  49 99.2 86.1 51.4 85.5 ...
##  $ Tuberculosis treatment                 : num  91 88 86 69 72.3 ...
##  $ Urban population                       : num  25.8 61.2 73.2 66.2 24.5 ...
##  $ Rural population                       : num  74.2 38.8 26.8 33.8 75.5 ...
##  $ Non-communicable Mortality             : num  36.2 6 12.8 19.4 17.6 ...
##  $ Sucide Rate                            : num  3.6 2.7 1.8 2.3 0.8 ...
##  $ continent                              : Factor w/ 5 levels "Africa","Americas",..: 3 4 1 1 2 2 4 2 5 4 ...
##  - attr(*, ".internal.selfref")=<externalptr> 
##  - attr(*, "sorted")= chr "Country"

2

Сделайте интерактивный plotly график любых двух нумерических колонок. Раскрасть по колонке континента, на котором расположена страна

3.

Проведите тест, на сравнение распределений колонки Life expectancy между группами стран Африки и Америки. Вид статистического теста определите самостоятельно. Визуализируйте результат через библиотеку rstatix.

4.

Сделайте новый датафрейм, в котором оставите все численные колонки кроме Year. Сделайте корреляционный анализ этих данных. Постройте два любых типа графиков для визуализации корреляций.

5.6.

Постройте иерархическую кластеризацию на этом датафрейме. Сделайте одновременный график heatmap и иерархической кластеризации. Содержательно интерпретируйте результат

Интерпретация результата: События иммунизации прямо пропорционально связаны между собой. Размер городской популяции обратно пропорционален размеру деревенской. Длительность жизни обратно пропорционально связана с детской смертностью, она же обратно пропорциональна связана с наличием базовых средств гигиены и бытовых технологий. GDP тем больше, чем больше GNI

# 7. Проведите PCA анализ на этих данных. Проинтерпретируйте результат.

интерпретация: примерно 50% данных обьясняется первыми двумя компонентами. При попытке найти кластеры, обнаружилось два. Также были найдены переменные, вносящие наибольший вклад в компоненты - иммунизация и размер городской популяции.

8.

Постройте biplot график для PCA. Раскрасьте его по значениям континентов. Переведите его в plotly. Желательно, чтобы при наведении на точку, вы могли видеть название страны.

9.

Дайте содержательную интерпретацию PCA анализу.

Нельзя сказать что есть какой-то паттерн в данных на основании PCA. Возможно группировочную переменную стоит поменять.

10.

Сравните результаты отображения точек между алгоритмами PCA и UMAP.

На этом графике явно прослеживается две группы точек, паттерн которых не соответствует странам как и на PCA биплоте.